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1. This international preliminary examination report has been prepared by this International Preliminary Examining 
Authority and is transmitted to the applicant according to Article 36. 



This REPORT consists of a total of 



8 



sheets, including this cover sheet. 



This report is also accompanied by ANNEXES, i.e., sheets of the description, claims and/or drawings which have 
been amended and are the basis for this report and/or sheets containing rectifications made before this Authority 
(see Rule 70.16 and Section 607 of the Administrative Instructions under the PCT). 



These annexes consist of a total of _ 



sheets. 



This report contains indications relating to the following items: 



I 

II 
III 

IV 

V 

VI 
VII 
VIII 



□ 

□ 

□ 



Basis of the report 
Priority 

Non-establishment of opinion with regard to novelty, inventive step and industrial applicability 
Lack of unity of invention 

Reasoned statement under Article 35(2) with regard to novelty, inventive step or industrial applicability; 
citations and explanations supporting such statement 

Certain documents cited 

Certain defects in the international application 

Certain observations on the international application 
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Date of completion of this report 

05 December 2001 (05.12.2001) j 


Name and mailing address of the IPEA/EP 
Facsimile No. 


Authorized officer 
Telephone No. 



Form PCT/IPEA/409 (cover sheet) (January 1994) 



INTERNATIONAL PR' 



INARY EXAMINATION REPORT 



frnational application No. 

PCT/EPOO/07953 



I. Basis of the report 



1 . This report has been drawn on the basis of (Replacement sheets which have been famished to the receiving Office in response to an invitation 
under Article 14 are referred to in this report as "originally filed" and are not annexed to the report since they do not contain amendments.): 



the international application as originally filed. 

the description, pages , as originally filed, 

pages , filed with the demand. 

pages , filed with the letter of 

pages , filed with the letter of 



the claims, 



Nos. 
Nos. 
Nos. 
Nos. 
Nos. 



, as originally filed, 

, as amended under Article 19, 



1-14 



the drawings, 



sheets/fig 
sheets/fig 
sheets/fig 
sheets/fig • 



1/2,2/2 



, filed with the demand, 
, filed with the letter of 
, filed with the letter of 

, as originally filed, 
, filed with the demand, 
, filed with the letter of 
, filed with the letter of 



26 November 2001 (26.11.2001) 



2. The amendments have resulted in the cancellation of: 

[~1 the description, pages 

the claims, Nos. 



I I the drawings, sheets/fig 



3 I I This report has been established as if (some of) the amendments had not been made, since they have been considered 
1 — 1 to go beyond the disclosure as filed, as indicated in the Supplemental Box (Rule 70.2(c)). 



4. Additional observations, if necessary: 
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V. Reasoned statement under Article 35(2) with regard to novelty, inventive step or industrial applicability; 
citations and explanations supporting such statement 



1 . Statement 

Novelty (N) 

Inventive step(JS) 
Industrial applicability (IA) 



Claims 
Claims 

Claims 
Claims 

Claims 
Claims 



.-14 



1-14 



1-14 



YES 
NO 
YES 
NO 

YES 
NO 



Citations and explanations 

This report makes reference to the following documents: 

Dl Genome Research, Vol. 5, 1995, pages 173 to 184 
D2 Methods in Enzymology, Vol. 266 , 1996, pages 

131 to 141 
D3 Information available at 

"www. ncbi . nlm. nih . gov/UniGene" since August 

1997 



1. Claim 1 relates to a method for determining 

potentially significant DNA and/or nucleic acid 
sequences of a species of interest (species 
sequences) with the following steps: 

a) determining any species sequences of species of 
interest using biological or genetically engineered 
methods and storing the species sequences in a first 
database, 

b) detecting known DNA/ nucleic acid sequences of a 
predetermined group of different types 
(biosequences) including the functional significance 
of these sequences, in a second database, in which 
the biosequences and additional information 
including the functional significance of individual 
biosequences are stored, 
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c) comparing in a homology test the already known 
species sequences of the species of interest with 
the biosequences of the predetermined group of 
biosequences stored in the second database, 

d) selecting those biosequences of the predetermined 
group that are homologous with the known species 
sequences over a predetermined threshold, 

e) comparison in a second homologous test of the 
biosequences not selected and remaining in the 
second database from the group mentioned with the 
species sequences determined as described in step a) 

f) storing and/or issuing those species sequences as 
species sequences of potentially increased 
importance, whose homology with biosequences made up 
of the group mentioned of remaining biosequences 
exceeds a predetermined second threshold value, 
along with information about the respective 
homologous biosequences 

g) it being possible to carry out step e) optionally 
before step c) and without the preceding selection 
described in step d) 

i) classification of the species sequences given and 
stored in step f ) , i.e. ordering (sorting) into 
particular classes of sequences by linguistic 
analysis of text definitions of the additional 
information stored about the homologous 
biosequences . 

Such a method is known from the available prior art. 
It thus meets the requirements of PCT Article 33(2). 
The same remark applies to the subject matter of 
dependent Claims 2 to 14. 

2. Moreover, such a method seems to involve an 
inventive step. 
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Dl is considered to be the closest prior art. This 
document discloses a method for automated sequence 
analysis by involving several databases. Dl 
describes the improved BLAST sequence alignment 
auxiliary agent "BEAUTY" which can help to identify 
not only homologous sequences already known for a 
newly sequenced DNA or protein section but also can 
help to request functional data. Functional data is 
extracted by providing "links" to other protein or 
DNA databases available on the Internet, such as 
Medline or OMIM (abstract, page 173, second column, 
second paragraph to page 174, second column, third 
paragraph; page 175, table 1, first column, first 
paragraph; page 180, Figure 5) . The subject matter 
of Claim 1 differs from this prior art in that two 
homology tests are done. After the first test all 
DNA sequences that are above a predetermined 
homology threshold value are selected, thereby 
reducing the calculating effort when comparing the 
second sequence. 

The problem addressed by the present application 
was, accordingly, how to develop a more rapid DNA 
sequence comparison method. 

This aforementioned problem was solved by reducing 
the sequence data stock in the second database first 
by subtraction with already known data from the 
first database with the result that the second 
homology comparison requires less calculating 
capacity, resulting in accelerated sequence data 
alignment. This method step was not known from the 
available documents. Moreover, the resulting 
technical effect does not seem to be suggested by 
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the available documents. The application can 
therefore be said to involve an inventive step (PCT 
Article 33(3)). The same remark applies to the 
subject matter of Claims 2 to 14 that are dependent 
on this claim. 
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Supplemental Box 

(To be used when the space in any of the preceding boxes is not sufficient) 



Continuation of: VI 



The search report citation WO-A-00 63687, filed on 
14.04.2000, published on 26.10.2000 with the priority 
data of 15.04.1999 and WO-A-01 13105, filed on 
28.07.2000, published on 22.01.2001 with the priority 
date of 30.07.1999, might be relevant for the subject 
matter of the present application should the claimed 
priority of the present claims not be valid. 
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VII. Certain defects in the international application 



The follow ing defects in the form or contents of the international application have been noted: 

Contrary to PCT Rule 5.1(a) (ii) , the description does not 
cite Dl and D2 or indicate the relevant prior art 
disclosed therein. 
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VIII. Certain observations on the international application 

The following observations on the clarity of the claims, description, and drawings or on the question whether the claims are fully 
supported by the description, are made: 

1. The following phrases used in Claims 1 and 2 and 
vague and not clear and leave the reader uncertain 
about the meaning of the relevant technical 
features . 

Claim 1 (d) : "are homologous over a predetermined 
threshold" 

Claim 1 (f ) : "exceeds a predetermined threshold" 
Claim 1 (i) : "by a linguistic analysis of text 
definitions" 

Claim 2 (h) : "in adaptation, optimised according to 
predetermined criteria, to the respective homologous 
biosequences" . 

As a result the definition of the subject matter of 
these claims is not clear (PCT Article 6). More 
particularly, the technical criteria by means of 
which the homology threshold values are determined 
(80%, 90% 100% homology?) are not clear. In step 
l(d}, firstly "homologous" sequences are removed 
from the comparative database, whereas in the second 
homology test more "homologous" sequences are found. 
Moreover, the claimed scope and the subject matter 
of Claim 2 are not clear at all. 

2. Moreover, the description does not give any 
technical teaching to indicate how the "computer 
program" of Claim 1 was programmed. Consequently, it 
seems to be disclosed in a form that cannot be 
carried out by a person skilled in the art (PCT 
Article 5) . 
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DIE INTERNATIONALE ZUSASMEN ARBEIT 
EM GEBIET DES PATENTWE5 



PCT 

INTERNATIONALER RECHERCHENBERICHT 

(Artikel 18 sowie Regeln 43 und 44 PCT) 



Aktenzeichen des Anmelders Oder An waits 
EM99102_W0 


WEITERES siehe Mitteilung uber die Ubermittiung des internationalen 

Recherchenberichts (Formblatt PCT/IS A/220) sowie, soweit 
VORGEHEN zutreffend, nachstehender Punkt 5 


Internationales Aktenzeichen 

PCT/EP 00/07953 


Internationales Anmeldedatum 
(Tag/Monat/Jahr) 

16/08/2000 


(Fruhestes) Prioritatsdatum (Tag/Monat/Jahr) 

01/09/1999 


Anmelder 

MERCK PATENT GMBH 



Dieser internationale Recherchenbericht wurde von der inter nationalen Recherche nbehorde erstellt und wird dem Anmelder gemaB 
Artikel 1 8 ubermittelt. Eine Kopie wird dem Internationalen Biiro ubermittelt. 

Dieser internationale Recherchenbericht umfaBt insgesamt _4 Blatter. 

|X| Daruber hinaus liegt ihrn jeweils eine Kopie der in diesem Bericht genannten Unterlagen zum Stand der Technik bei. 



t . Grundlage des Bench ts 

a. Hinsichtlich der Sprache ist die internationale Recherche auf der Grundlage der internationalen Anmeldung in der Sprache 
durchgefuhrt worden, in der sie eingereicht wurde, sofern unter diesem Punkt nichts anderes angegeben ist. 

| | Die internationale Recherche ist auf der Grundlage einer bei der Beh&rde eingereichten Obersetzung der internationalen 
Anmeldung (Regel 23.1 b)) durchgefuhrt worden. 

b. Hinsichtlich der in der internationalen Anmeldung offenbarten Nucleotide und/oder Aminosauresequenz ist die Internationale 
Recherche auf der Grundlage des SequenzprotokoJIs durchgefuhrt worden, das 

| | in der internationalen Anmeldung in Schriflicher Form enthalten ist. 

zusammen mit der internationalen Anmeldung in computerlesbarer Form eingereicht worden ist. 



□ 
□ 
□ 
□ 

□ 

□ 
□ 



bei der Behorde nach tragi ich in schriftlicher Form eingereicht worden ist. 

bei der Behorde nachtraglich in computerlesbarer Form eingereicht worden ist. 

Die Erklarung, daB das nachtraglich eingereichte schriftliche Sequenzprotokoll nicht uber den Offenbarungsgehalt der 
\ntemat\ona\en Anmeldung im Anmeldezeitpunkt hinausgeM, wurde vorgelegt. 

Die Erklarung, daR die in computerlesbarer Form erfaGten Informatlonen dem schriftlichen Sequenzprotokoll entsprechen, 
wurde vorgelegt. 

Bestimmte Anspruche haben sich als nicht recherchierbar erwiesen (siehe Feld I). 
Mangelnde Einheitltchkert der Erfindung (siehe Feld II). 



4. Hinsichtlich der Bezeichnung der Erfindung 

pf] wird der vom Anmelder eingereichte Wortlaut genehmigt. 
I"""] wurde der Wortlaut von der Behorde wie folgt festgesetzt: 



5. Hinsichtlich der Zusammenfassung 

wird der vom Anmelder eingereichte Wortlaut genehmigt 

wurde der Wortlaut nach Regel 38.2b) in der in Feld III angegebenen Fassung von der Behorde festgesetzt. Der 
jXj Anmelder kann der Behorde innerhalb eines Monats nach dem Datum der Absendung dieses internationalen 
Recherchenberichts eine Stellungnahme vorlegen. 

6. Folgende Abbildung der Zeichnungen 1st mit der Zusammenfassung zu veroffentlicnen: Abb. Nr. ] 



[X] wie vom Anmelder vorgeschlagen Q keinederAbb. 

1 | well der Anmelder selbst keine Abbildung vorgeschlagen hat. 
Q well diese Abbildung die Erfindung besser kennzeichnet. 
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Ir recherchenbericht 
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Feld III WORTLAUT DER ZUSAMMENFASSUNG (Fortsetzung von Punkt 5 auf Blatt 1 ) 



Die vorliegende Erfindung betrifft ein Verfahren zum Ermitteln 
potentiell bedeutsamer DNA- und/oder Nukleinsauresequenzen einer 
interessierenden Spezies (Artsequenzen) . Um ein Verfahren zum Ermitteln 
von DNA- und/oder Nukleinsauresequenzen zu schaffen, bei welchem 
gezielt solche DNA- und/oder Nukleinsauresequenzen herausselektiert 
werden, die eine potentiell erhohte Bedeutsamkeit haben, das heifct die 
mit erheblich weniger Forschungsauf wand gezielt im Hinblick auf 
bestimmte Funktionen untersucht werden konnen, insbesondere im Hinblick 
auf eine potentielle Kranheitsrelevanz . 
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C(Fortsetzung) ALS WESENTLICH ANGESEHENE UNTERLAGEN 



enutionc 

9t 



[pnales Aktenzeichen 

00/07953 



Kategorie* 



Bezeichnung der VerSffenttfchung. soweit erfordertich unler Angabe der in Betrachl kommenden Teile 



Betr. Anspruch Nr. 



WORLEY K C ET AL: "BEAUTY: AN ENHANCED 
BLAST-BASED SEARCH TOOL THAT INTEGRATES 
MULTIPLE BIOLOGICAL INFORMATION RESOURCES 
INTO SEQUENCE SIMILARITY SEARCH RESULTS" 
GENOME RESEARCH, US, COLD SPRING HARBOR 
LABORATORY PRESS, 
Bd. 5, Nr. 2, 

1. September 1995 (1995-09-01), Seiten 
173-184, XP000534406 
ISSN: 1088-9051 
das ganze Dokument 

W0 01 13105 A (CHIN DANIEL J ;HENDRIX 
DONNA (US); ZHAO OLIVER (US); AGY 
THERAPEUT) 22. Februar 2001 (2001-02-22) 
Zusammenfassung; Anspruche 1-13 

WO 00 63687 A (UNIV COLUMBIA) 

26. Oktober 2000 (2000-10-26) 

Zusammenfassung; Anspruch 1 

Seite 44, Zeile 5 -Seite 45, Zeile 10 

US 5 871 697 A (DEEM MICHAEL W ET AL) 
16. Februar 1999 (1999-02-16) 
Zusammenfassung; Anspruche 1-6 
Spalte 58, Absatz 2 -Spalte 59, Absatz 2 



1-15 



1-15 



1-15 



1-15 
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INTERNATIONAL SEARCH REPORT 

» patent family members 



Inforr^jj^pn f 



Patent document 
cited in search report 



Publication 
date 



InternMfonal Application No 

pA 00/07953 



Patent family 
member(s) 



Publication 



WO 0113105 
WO 0063687 



A 
A 



US 5871697 A 



22-02-2001 
26-10-2000 



All 
AU 



6611900 A 
4355600 A 



16-02-1999 



AU 
AU 
EP 



730830 B 
7476396 A 
0866877 



OP 2000500647 



WO 
US 
US 



A 
T 
A 



9715690 
6231812 B 
5972693 A 



US 2001007985 



US 



6141657 



13-03-2001 
02-11-2000 



15-03- 
15-05- 

30- 09- 

25- 01- 
01-05- 
15-05- 

26- 10- 
12-07- 

31- 10- 



2001 
1997 
1998 
2000 
1997 
2001 
1999 
2001 
2000 
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A. KLASSIFIZIERUNG DES ANMELDUNGSGEGENSTANDES 

IPK 7 C12Q1/68 G06F19/00 



Nach der Intemationalen Patentklassifikation (IPK) oder nach der nationalen Ktassifikation und der IPK 



B. RECHERCHIERTE GEBIETE 



Recherchierter Mindestprufstoff (Ktassifikationssystem und Kfassifikationssymbote ) 

IPK 7 G06F 



Rechercrtierte aber nicht zum Mindestprufstoff gehorende Veroffentlichungen, soweft diese unter die recherchierten Gebiete fallen 



Wan rend der intemationalen Recherche konsultierte elektronische Datenbank (Name der Datenbank und evtl. vetwendete Suchbegrifte) 

EPO-Internal , WPI Data 



C. ALS WESENTUCH ANGESEHENE UNTERLAGEN 



Kategorie" Bezeichnung der Veroffentlichung, soweit erforderfich unter Angabe der in Betracht kommenden TeHe 



Betr. Anspruch Nr. 



MADDEN T L ET AL: "APPLICATIONS OF 
NETWORK BLAST SERVER" 

METHODS IN ENZYM0LOGY, ACADEMIC PRESS INC, 
SAN DIEGO, CA,US, 

Bd. 266, 1996, Seiten 131-141, XP001006313 
ISSN: 0076-6879 
das ganze Dokument 

-/-- 



1-15 



Weitere Veroffentlichungen sind der Fortsetzung von Feld C zu 
entnehmert 



Siehe Anhang Patentfamtlie 



° Besondere Kategorien von angegebenen Veroflentlichungen 

"A* Veroffentlichung, die den atlgemeinen Stand der Technik definiert, 
aber nicht als besonders bedeutsam anzusehen ist 

■E" alteres Dokument, das jedoch erst am oder nach dem intemationalen 
Anmeldedatum veroftentlicht worden ist 

"L" Verdffentlichung, die geeignet ist, einen Priorrtatsanspruch zweifelhaft er- 
scheinen zu Lassen, Oder durch die das Veroffentlichungsdatum einer 
anderen im Recherchenbericht genannten Verdffentlichung be/eg? werden 
soil oder die aus einem anderen besonderen Grund angegeben ist (wie 
ausgefuhrt) 

'O* Verorfentlichung, die sich auf eine mundliche Orfenbarung, 

erne Benutzung, erne Ausstetlung oderandere MaBnahmen bezieht 

*P* Veroffentlichung, die vordem intemationalen Anmeldedatum, aber nach 
dem beanspruchten Prioritatsdatum veroffentlicht worden ist 



'T' Spatere Veroffentlichung, die nach dem intemationaJen Anmeldedatum 
Oder dem Prioritatsdatum veroftentlicht worden ist und mit der 
Anmeldung nicht koJIidiert, sondern nur zum Verstandnis des der 
Erfindung zugrundeltegenden Prinzips oder der ihr zugrundeliegenden 
Theorie angegeben ist 

'X' Veroffentlichung von besonderer Bedeutung; die beanspruchte Erfindung 
kann alfein aufgrund dieser Veroffentlichung nicht als neu oder auf 
erfinderischer Tatigkeit beruhend betracht et werden 

'Y' Veroffentlichung von besonderer Bedeutung; die beanspruchte Erfindung 
kann nicht als auf erfinderischer Tatigkeit beruhend betrachtet 
werden, wenn die Veroffentlichung mit einer oder mehreren anderen 
Veroffentlichungen dieser Kategorie in Verbindung gebracht wird und 
diese Verbindung fur einen Fachmann naheliegend ist 

Veroffentlichung, die Mitglied derselben PatentfamiUe ist 



Datum des Abschlusses der intemationalen Recherche 



2. August 2001 



Absendedatum des intemationalen Recherchenberichts 



09/08/2001 



Name und Postanschritt der IntemationaJen Recherchenbehdrde 
Europaisches Patentamt, P.B. 5818 Patentlaan 2 
NL - 2280 HV Rijswijk 
Tel. (+31-70) 340-2040, Tx. 31 651 epo nl, 
Fax: (+31-70) 340-3016 



Bevollmachtigter Bediensteter 



Filloy Garcia, E 



Formblatt PCT/IS/V210 (Biatt 2) (Juli 1992) 
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From the INTERNATIONAL BUREAU 



PCT 

NOTIFICATION OF ELECTION 

(PCT Rule 61.2) 


To: 

Commissioner 

US Department of Commerce 
United States Patent and Trademark 
Office, PCT 

2011 South Clark Place Room 
CP2/5C24 

Arlington, VA 22202 
ETATS-UNIS D'AMERIQUE 

in its capacity as elected Office 


Date of marling (da y/mo nth/year) 
11 May 2001 (11.05.01) 




International application No. 
PCT/EPOO/07953 


Applicant's or agents file reference 
EM99102J/VO 


International filing date (day/mo nth/year) 
16 August 2000(16.08.00) 


Priority date (day/month/year) 

01 September 1999 (01.09.99) 


Applicant 

TOLDO, Luca et al 



1 . The designated Office is hereby notified of its election made: 

("x| in the demand filed with the International Preliminary Examining Authority on: 

24 March 2001 (24.03.01) 



| | in a notice effecting later election filed with the International Bureau on: 



2. The election 




not 



made before the expiration of 19 months from the priority date or, where Rule 32 applies, within the time limit under 
Rule 32.2(b). 





Authorized officer 


The International Bureau of WIPO 


34, che m in des Colombettes 


Juan Cruz 


1211 Geneva 20, Switzerland 


Facsimile No.: (41-22) 740.14.35 


Telephone No.: (41-22) 338.83.38 



Form PCT/IB/331 (July 1992) EP0007953 



VERTRAG UBEMIE INTERNATIONALE ZUSA«MENARBE|Tj AUFOEM j 
W GEBIET DES PATENTWEJWS j 



PCT 

INTERNATIONALER VORLAUFIGER PRUFUNGSBERICHT 

(Artikel 36 und Regel 70 PCT) 



Aktenzeichen des Anmelders Oder Anwalts 
E/M99102JA7O 


siehe Mitteilung uber die Ubersendung des intemationalen 
WEITERES VORGEHEN vorlaufigen Prtifungsberichts (Formblatt PCT/IPEA/416) 


Internationales Aktenzeichen 
PCT/EPOO/07953 


Internationales AnmeldedatumfT ag/Monat/Jahr) 
16/08/2000 


Prioritatsdatum (Tag/Monat/Tag) 
01/09/1999 



Internationale Patentklassifikation (IPK) Oder nationale Klassifikation und IPK 
C12Q1/68 



Anmelder 

MERCK P ATENT GMBH et al. 

1 . Dieser internationale vorlaufige Prufungsbericht wurde von der mit der intemationalen vorlaufigen Prufung beauftragten 
Behorde erstellt und wird dem Anmelder gemaB Artikel 36 ubermittelt. 



2. Dieser BERICHT umfaGt insgesamt 8 Blatter einschlieBlich dieses Deckblatts. 

S AuGerdem liegen dem Bericht ANLAGEN bei; dabei handelt es sich urn Blatter mit Beschreibungen, Anspruchen 
und/oder Zeichnungen, die geandert wurden und diesem Bericht zugrunde liegen, und/oder Blatter mit vor dieser 
Behorde vorgenommenen Berichtigungen (siehe Regel 70.16 und Abschnitt 607 der Verwaltungsrichtlinien zum PCT). 

Diese Anlagen umfassen insgesamt 3 Blatter. 



3. Dieser Bericht enthalt Angaben zu folgenden Punkten: 

Grundlage des Berichts 
Prioritat 

Keine Erstellung eines Gutachtens uber Neuheit, erfinderische Tatigkeit und gewerbliche Anwendbarkeit 
Mangelnde Einheitlichkeit der Erfindung 

Begrundete Feststellung nach Artikel 35(2) hinsichtlich der Neuheit, der erfinderischen Tatigkeit und der 
gewerblichen Anwendbarkeit; Unterlagen und Erklarungen zur Stutzung dieser Feststellung 

Bestimmte angefuhrte Unterlagen 

Bestimmte Mangel der intemationalen Anmeldung 

Bestimmte Bemerkungen zur intemationalen Anmeldung 



I 


8 


II 


□ 


III 


□ 


IV 


□ 


V 




VI 




VI! 




VIII 





Datum der Einreichung des Antrags 



24/03/200.1 
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I. Grundlage des Berichts 

1 . Hinsichtlich der Bestandteile der internationalen Anmeldung (Ersatzblatter, die dem Anmeldeamt auf eine 
Aufforderung nach Artikel 14 hin vorgelegt wurden, gelten im Rahmen dieses Berichts als "ursprunglich 
eingereicht" und sind ihm nicht beigefugt, weil sie keine Anderungen enthaiten (Regeln 70. 16 und 70.17)): 
Beschreibung, Seiten: 

1 -1 1 ursprungliche Fassung 



Patentanspruche, Nr.: 

1-14 mit Telefax vom 26/1 1/2001 



Zeichnungen, Blatter: 

1/2,2/2 ursprungliche Fassung 



2. Hinsichtlich der Sprache: Alle vorstehend genannten Bestandteile standen der Behorde In der Sprache, in der 
die Internationale Anmeldung eingereicht worden ist, zur Verfugung Oder wurden in dieser eingereicht, sofern 
unter diesem Punkt nichts anderes angegeben ist. 

Die Bestandteile standen der Behorde in der Sprache: zur Verfugung bzw. wurden in dieser Sprache 
eingereicht; dabei handelt es sich urn 

□ die Sprache der Ubersetzung, die fur die Zwecke der internationalen Recherche eingereicht worden ist (nach . 
Regel 23.1(b)). 

□ die Veroffentlichungssprache der internationalen Anmeldung (nach Regel 48.3(b)). 

□ die Sprache der Ubersetzung, die fur die Zwecke der internationalen vorlaufigen Prufung eingereicht worden 
ist (nach Regel 55.2 und/oder 55.3). 

3. Hinsichtlich der in der internationalen Anmeldung offenbarten Nucleotid- und/oder Aminosauresequenz ist die 
internationale vorlaufige Prufung auf der Grundlage des Sequenzprotokolls durchgefuhrt worden, das: 

□ in der internationalen Anmeldung in schriftlicher Form enthaiten ist. 

□ zusammen mit der internationalen Anmeldung in computerlesbarer Form eingereicht worden ist. 

□ bei der Behorde nachtraglich in schriftlicher Form eingereicht worden ist. 

□ bei der Behorde nachtraglich in computerlesbarer Form eingereicht worden ist. 

□ Die Erklarung, daB das nachtraglich eingereichte schriftliche Sequenzprotokoll nicht uber den 
Offenbarungsgehalt der internationalen Anmeldung im Anmeldezeitpunkt hinausgeht, wurde vorgelegt. 

□ Die Erklarung, daG die in computerlesbarer Form erfassten Informationen dem schriftlichen 
Sequenzprotokoll entsprechen, wurde vorgelegt. 

4. Aufgrund der Anderungen sind fqlgende Unterlagen fortgefallen: 
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□ Beschreibung, Seiten: 

□ Anspruche, Nr.: 

□ Zeichnungen, Blatt: 

5. □ Dieser Bericht ist ohne Berucksichtigung (von einigen) der Anderungen erstellt worden, da diese aus den 

angegebenen Grunden nach Auffassung der Behorde uber den Offenbarungsgehalt in der ursprunglich 
eingereichten Fassung hinausgehen (Regel 70.2(c)). 

(Auf Ersatzblatter, die solche Anderungen enthalten, ist unter Punkt 1 hinzuweisen;sie sind diesem Bericht 
beizufugen). 

6. Etwaige zUsatzliche Bemerkungen: 

V. Begrundete Feststellung nach Artikel 35(2) hinsichtlich der Neuheit, der erfinderischen Tatigkeit und der 
gewerblichen Anwendbarkeit; Unterlagen und Erklarungen zur Stiitzung dieser Feststellung 

1. Feststellung 

Neuheit (N) Ja: Anspruche 1-14 

Nein: Anspruche 

Erf inderische Tatigkeit (ET) Ja: Anspruche 1-14 

Nein: Anspruche 

Gewerbliche Anwendbarkeit (GA) Ja: Anspruche 1-14 

Nein: Anspruche 

2. Unterlagen und Erklarungen 
siehe Beiblatt 

VI. Bestimmte angefiihrte Unterlagen 

1. Bestimmte veroffentlichte Unterlagen (Regel 70.10) 
und / oder 

2. Nicht-schriftliche Offenbarungen (Regel 70.9) 
siehe Beiblatt 

VII. Bestimmte Mangel der internationalen Anmeldung 

Es wurde festgestellt, daG die Internationale Anmeldung nach Form oder Inhalt folgende Mangel aufweist: 
siehe Beiblatt 

VIII. Bestimmte Bemerkungen zur internationalen Anmeldung 
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Zur Kiarheit der Patentanspruche, der Beschreibung und der Zeichnungen Oder zu der Frage, ob die Anspruche 
in vollem Umfang durch die Beschreibung gestutzt werden, ist folgendes zu bemerken: 
siehe Beiblatt 
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Es wird auf die folgenden Dokumente verwiesen: 

D1: Genome Research, Bd. 5, 1995, Seiten 173-184 

D2: Methods in Enzymology, Bd. 266, 1996, Seiten 131-141 

D3: Informationen unter ' , www.ncbi.nlm.nih.gov/UniGene ,, verfugbar seit August 

1997. 



Punkt V: 

1. Anspruch 1 bezieht sich auf ein Verfahren zum Ermitteln potentiell bedeutsamer 
DNA-und/oder Nukleinsauresequenzen einer interessierenden Spezies 
(Artsequenzen) mit den folgenden Schritten : 

a) Ermitteln beliebiger Artsequenzen der interessierenden Spezies mit biologischen 
bzw. gentechnischen Methoden und Speichern der Artsequenzen in einer ersten 
Datenbank, 

b) Erfassen bekannter DNAVNukleinsauresequenzen einer vorgegebenen Gruppe 
anderer Arten (Biosequenzen) einschlieBlich der funktionalen Bedeutung dieser 
Sequenzen, in einer zweiten Datenbank, in welcher die Biosequenzen und 
Zusatzinformationen einschlieBlich der funktionalen Bedeutung einzelner 
Biosequenzen gespeichert sind, 

c) Vergleichen der bereits bekannten Artsequenzen der interessierenden Spezies mit 
den Biosequenzen der in der zweiten Datenbank gespeicherten, vorgegebenen 
Gruppe von Biosequenzen in einem Homologietest, 

d) Aussondern derjenigen Biosequenzen der vorgegebenen Gruppe, die zu den 
bekannten Artsequenzen uber einem vorgegebenen Schwellenwert homolog sind, 

e) Vergleichen der aus der zweiten Datenbank verbleibenden, nicht ausgesonderten 
Biosequenzen aus der erwahnten Gruppe mit den nach Schritt a ermittelten 
Artsequenzen in einem zweiten Homologietest, 

f) Speichern und/oder Ausgeben derjenigen Artsequenzen als Artsequenzen 
potentiell erhohter Bedeutung, deren Homologie mit Biosequenzen aus der 
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erwahnten Gruppe verbliebenen Biosequenzen einen vorgegebenen zweiten 
Schwellenwert uberschreitet, zusammen mit Informationen uber die hierzu jeweils 
homologen Biosequenzen. 

g) Wobei Schritt e) wahlweise auch vor Schritt c) und ohne vorheriges Aussondern 
gemaR Schritt d) durchfuhrbar ist 

i) Klassifizieren der in Schritt f) ausgegebenen bzw. gespeicherten Artsequenzen, 
d.h. Einordnen (Sortieren) in bestimmte Klassen von Sequenzen durch linguistische 
Analyse von Textdefinitionen der zu den homologen Biosequenzen gespeicherten 
Zusatzinformationen. 

Ein solches Verfahren ist aus dem verfugbaren Stand der Technik nicht bekannt. Es 
erfullt somit die Erfordernisse von Art. 33(2) PCT. Dasselbe gilt fur den Gegenstand 
der davon abhangigen Anspruche 2 bis 14. 

2. Daruber hinaus erscheint ein solches Verfahren auf einer erfinderischen Tatigkeit zu 
beruhen. 

D1 wird als nachster Stand der Technik erachtet. Dieses Dokument offenbart ein 
Verfahren zur automatisierten Sequenzanalyse unter Einbeziehung mehrerer 
Datenbanken. D1 beschreibt das verbesserte BLAST Sequenzalignment Hilfsmittel 
"BEAUTY 11 mit dessen Hilfe nicht nur homologe bereits bekannte Sequenzen fur 
einen neu sequenzierten DNA- oder Proteinabschnitt identifiziert werden konnen, 
sondern gleichzeitig auch funktionelle Daten abgerufen werden konnen. Die Abfrage 
von funktionellen Daten erfolgt dabei uber die Bereitstellung von "links" zu weiteren 
im Internet verfugbaren Protein- oder DNA Datenbanken, wie z.B. Medline oder 
OMIM (siehe Zusammenfassung, Seite 173, zweite Saule, zweiter Absatz bis Seite 
174,zweite Saule, dritter Absatz; Seite 175, Tabelle 1, erste Saule, erster Absatz; 
Seite 180, Abbildung 5). Der Gegenstand von Anspruch 1 unterscheidet sich davon 
indem zwei Homologietests durchgefuhrt werden. Dabei werden nach Durchfiihrung 
des ersten Tests, alle DNA-Sequenzen, die uber einem vorgegebenen 
Homologieschwellenwert liegen ausgesondert. Dies fuhrt dazu, daG der 
Rechenaufwand bei der Durchfuhrung des zweiten Sequenzvergleichs reduziert wird. 

Aufgabe der vorliegenden Anmeldung war es demnach ein schnelleres DNA- 
Sequenzvergleich Verfahren zu entwicketn. 
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Gelost wurde das oben genannte Problem, indem der Sequenzdatenbestand der 
zweiten Datenbank zuerst durch Subtraktion mit bereits bekannten Daten aus der 
ersten Datenbank reduziert wird, so da(3 der zweite Homologievergleich weniger 
Rechnerkapazitat benotigt. Dies fuhrt zu etnem beschleunigten 
Sequenzdatenabgleich. Dieser Verfahrensschritt war aus den zur Verfugung 
stehenden Dokumenten nicht bekannt. Daruber hinaus erscheint derdadurch erzielte 
technische Effekt nicht naheliegend aus den zur Verfugung stehenden Dokumenten 
ableitbar. Eine erfinderische Tatigkeit kann daher anerkannt werden (Art. 33(3) PCT). 
Dasselbe gilt fur den Gegenstand der davon abhangigen Anspruche 2 bis 14. 

Punkt VI: 

Die im Recherchenbericht zitierten Dokumente WO-A-0063687, eingereicht 
am 14.04.2000, am 26.10.2000 veroffentlicht mit Prioritats-relevantem Datum 
vom 15.04.1999 und das Dokument WO-A-01 13105, eingereicht am 
28.07.2000, am 22.01 .2001 veroffentlicht mit Prioritats-relevantem Datum vom 
30.07.1999 konnten moglicherweise relevant fur den Gegenstand der 
vorliegenden Anmeldung sein, falls die beanspruchte Prioritat der vorliegenden 
Anspruche nicht gultig sein sollte. 

Punkt VII: 

1 . Im Widerspruch zu den Erfordernissen der Regel 5.1 a) ii) PCT werden in der 
Beschreibung weder der in den Dokumenten D1 und D2 offenbarte 
einschlagige Stand der Technik noch diese Dokumente angegeben. 

Punkt VIII: 

1 . Die in den Anspriichen 1 und 2 benutzten Ausdrucke: 

Anspruch 1(d): "uber einem vorgegebenen Schwellenwert homolog sind" 
Anspruch 1 (f): "einen vorgegebenen Schwellenwert uberschreitet" 
Anspruch 1(i): "durch linguistische Analyse von Textdefinitionen" 
Anspruch 2(h): "in einer nach vorgebbaren Kriterien optimierten Anpassung an 
die jeweils homologen Biosequenzen". 
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sind vage und unklar und lassen den Leser uber die Bedeutung der betref- 
fenden technischen Merkmale im Ungewissen. Dies hat zur Folge, daf3 die 
Definition des Gegenstands dieser Anspruche nicht klar ist (Artikel 6 PCT). 
Unklar sind im besonderen die technischen Kriterien, wodurch die 
Homologieschwellenwerte bestimmt werden (80%, 90%, 100% Homologie?). 
In Schritt 1(d) werden zuerst n homologe" Sequenzen aus der 
Vergleichsdatenbank entfernt, wahrend in einem zweiten Homologietest 
wiederum "homologe" Sequenzen gefunden werden. 

Daruber hinaus ist der Anspruch 2 vollig unklar, was den beanspruchten 
Umfang und den Gegenstand dieses Anspruchs betrifft 

2. Daruber hinaus wird in der Beschreibung keine technische Lehre gegeben, 
wie das "Computerprogramm" von Anspruch 1 programmiert wurde. Es 
scheint daher in einer fur den Fachmann nicht nacharbeitbaren Form 
offenbart zu sein (Art. 5 PCT). 
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Patent anspruc he 



1 . Verfahren zum Ermitteln potentiell bedeutsamer DNA- und/oder Nukieinsauresequenzen 
einer interessierenden Spezies (Artsequenzen) mit den folgenden Schritten: 

a) Ermitteln beliebiger Artsequenzen der mteressferenden Spezies mit biologrschen bzw\ gen- 
technischen Methoden und Speichern der Artsequenzen in einer ersten Datenbank, 

b) Erfassen bekannter DNAVNukleinsauresequenzen einer vorgegebenen Gruppe anderer 
Alien (Biosequenzen) einschJjeBlicb der funktionalen Bedeutung dieser Sequenzen, in ei- 
ner zweiten Datenbank, in welcher die Biosequenzen und Zusatzinformationen einschNeG- 
lich der funktionalen Bedeutung einzelner Blosequenzen gespeichert sind, 

c) Vergleichen der bereite bekannten Artsequenzen der interessierenden Spezies mit den 
Biosequenzen der ?n der zweiten . Datenbank gespeicherten, vorgegebenen Gruppe von 
Biosequenzen in einem Homofogfetest, 

20 d) Aussondem derjenigen Biosequenzen der vorgsgebenen Gruppe, die zu den bekannten 
Artsequenzen uber einem vorgegebenen Schwellenwert homolog sind, 

e) Vergleichen der aus der zweiten Datenbank verbleibenden, nicht ausgesonderten Biose- 
quenzen aus der erwahnten Gruppe mit den nach Schritt a ermittelten Artsequenzen in ei- 

25 nem zweiten HomoJogi'etest, 

f) Speichern und/oder Ausgeben derjenigen Artsequenzen als Artsequenzen potentiell erhoh- 
ter Bedeutung. denen Homologie mit Biosequenzen aus den aus der erwahnten Gruppe 
verbliebenen Biosequenzen einen vorgegebenen zweiten Schwellenwert uberschreitet, zu- 

30 sammen mit Informationen uber die hierzu jeweiis homologen Biosequenzen,. 

g) wobei Schritt e) wahlweise aucb vor Schritt c) und ohne vorheriges Aussondem gemaB 
Schritt d) durchfuhrbar ist und 

35 i) tQasslfizieren der in Schritt f) ausgegebenen bzw. gespe/cherten Artsequenzen, d. h. Ein- 
ordnen (Sortieren) in bestimmte Kiassen von Sequenzen durch linguistische Analyse von 
Textdefinitionen derzu den homologen Biosequenzen gespeicherten Zusatzinformationen. 



GEAENDERTES BLATT 

Pmo* ?oi+:?h/i i/yiui \y_iit 



UHf I ml ll ■ ■ l i iw-r 



26-11-2001 M0 12 :1 ? F A* t 49 611 3/2111 r*^— cruuu/w 



13- 



2. Verfahren nach Anspruch 1 , gekennzeichnet durch die folgenden weiteren Schritte: 

h) Anpassen der in Schritt f) ausgegebenen bzw. gespeicherten Artsequenzen in einer nach 
5 vorgebbaren Kriterien optimierten Anpassung an die jeweils homologen Biosequenzen und 

Ausgabe und/oder Speicherung charakteristischer Parameter der optimierten Anpassung, 
wie zum Beispiel der prozentuafen Gbereinstimmung, der Lange ubereinstimmender Se- 
quenzabschnitte und der optimierten relativen Ausrichtung (Alignment). 

10 3. Verfahren nach einem der Anspruche 1 bis 2, gekennzeichnet durch den folgenden Schritt: 

• a. Erganzen der den potentiell bedeutsamen Artsequenzen zuzuondnenden Bgen- 
schaftsinformationen der Jeweils homologen Biosequenzen durch Erfassen von Hin- 
wefsen (Links) zu den gemlB Schritt f) erfaBten Biosequenzen in der zweiten Daten- 
15 bank auf mindestens eine dritte Datenbank und Erfassen derzu den erwahnten Bio- 

sequenzen in der dritten Datenbank gespeicherten Informationen. 

4. Verfahren nach einem der Anspruche 1 bis 3, dadurch gekennzeichnet, daB die dritte Da- 
tenbank eine mindestens in Teilbereichen taxonomisch organisierte KJassifikation bereft- 

20 halt 

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daB die dritte Datenbank die MED- 
LINE Datenbank ist. 

25 6. Verfahren nach Anspruch 4, gekennzeichnet durch Vergleichen der nach taxonomischen 
Kriterien den jewellfgen Biosequenzen zugeordneten Stichworte mit einer vorgegebenen 
Ltste bzw. Datei von Stichworten und Ausgabe ubereinstimmender Stichworte sowie der 
betreffenden Biosequenzen und der homologen Artsequenzen bzw. jeweils einer Kennung 
derselben, fur die Qbereinstimmende Stichworte mit der vorgegebenen Liste von Stichwor- 

30 ten gefunden wurden. 

7. Verfahren nach einem der Anspruche 1 bis 6, dadurch gekennzeichnet, daB der Vergleich 
einer vorgegebenen (Wassifizierten) Liste von Stichworten mindestens mit den Medical 
Subject Headings der Medline-Datenbank erfolgt. 



35 



Verfahren nach einem der Anspruche 1 bis 3, dadurch gekennzeichnet, dafl die dritte Da- 
tenbank die UNIGENE Datenbank ist. 
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9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dafi auf der Basis der EST- 
Clusterposftionen aus UNfGENE fnformationen uber entsprechende oder benachbarte Se- 
quenzabschnitte aus GENEMAP und/oder GDB erfaflt werden. 

5 10. Verfahren nach Anspruch 1 Oder 2, dadurch gekennzeichnet, daB weitere Datenbanken 
nach VerknOpfungsgliedem zu den in der dritten Datenbank ermittelten Fundstellen durch- 
sucht werden und Hinzutugen der entsprechenden weiteren Informationenbzw. von Hin- 
weisen auf die weiteren Informationen zu den entsprechenden Artsequenzen erhohter Be- 
deutung. 

10 

11. Verfahren nach einem der Anspruche 1 bis 10, dadurch gekennzeichnet, daB mindestens 
die zweite Datenbank eine offentlich zugangliche Datenbank .ist. 

t2. Verfahren nach einem der Anspruch 4 bis 11, dadurch gekennzeichnet, daB die weiteren 
15 Datenbanken aus der Gruppe ausgewahlt werden, die aus den Unigene, genemap und 

GDB (neu) sowie OMIM-, KEGG- und UMLS-Datenbanken besteht • " 

1 3. Verfahren nach einem der Anspruche 1 bis 1 2, dadurcK gekennzeichnet, daB das Hinzufu- 
gen weiterer fnformationen zu den gemaB Schritt f ennfttelten Artsequenzen in einem Pipe- 

20 lineverfahren erfolgt, wobei die hinzugefugten Informationen in Form von Verkhupfungs- 

gliedem zu den zugeordneten Positionen in weiteren Datenbanken bestehen. 

14. Verfahren nach einem der Anspruche 1 bis 13, dadurch gekennzeichnet daB die interes- 
sierende Spezies die menschiiche Spezies 1st und daB die zugeordnete Gruppe von Bio- 

25 sequenzen die Biosequenzen von wirbellosen Tieren,-Saugetieren, Primaten, Nagetieren 

und Wirbeltieren, sowie die noch nicht klassifizierten Neueintrage der zweiten Datenbank 
unrrfaBt 



GEAENDERTES BLATT 

Fmpf .zeit:26/n/A«Ji i^r: io 



cmpT.nr ..u^i r.uuu 



(12) NACH DEM VERTRAC UBER DIE INTERNATIONALE ZUSAMMENARBEIT AUF DEM GEBIET DES 
PAT EN TWE SENS (PCT) VEROFFENTL1CHTE INTERNATIONALE ANMELDUNG 



(19) Weltorganisation fur geistiges Eigentum 
Internationales Biiro 

(43) Internationales Verdffentlichungsdatum 
22. Marz2001 (22.03.2001) 




PCT 



(10) Internationale Veroffentlichungsnummer 

WO 01/20024 A3 



(51) Internationale Patenlkiassifikation 7 : C12Q 1/68, 

G06F 1 9/00 



(21) Internationales Aktenzeichen: 



PCT/EP0O/07953 



(22) Internationales Anmeldedatum: 

1 6. August 2000 ( 1 6.08.2000) 



(25) Einreichungssprache: 

(26) Veroffcntlichungssprache: 



Deutsch 
Deutsch 



(30) Angaben zur Priorilal: 

199 41 60(i.O 1 . September 1 999 (0 1 .09. 1 999) DE 

(71) Anmelder (fur a He Bestimmimgsstaaten mil Ausnahme von 
US/: MERCK PATENT GMBH [DE/DE]; Frankfuner 
Strassc 253. 64293 Darmstadt (DE). 



(72) Erfinder; und 

(75) Erfinder/Anmelder (nur fur US): TOLDO, Luca 
| DE/DE]; Konrad-Adenauer-Strasse I, 69514 Laudenbach 
(DE). RIPPMANN, Friedrich [DE/DEJ; Schroderstrasse 
79,69120 Heidelberg (DE). 

(74) An wait: WEBER - SEIFFERT - LIEKE; Postfach 61 45. 
65051 Wiesbaden (DE). 

(81) Bestimmungsstaaten (national): AE, AL. AM. AT, AU, 
AZ, BA, BB, BG. BR, BY. CA. CH. CN. CU. CZ. DK, EE. 
ES. Fl, GB, GD, GE, GH, GM. HR, HU, ID. IL. IN, IS, JP, 
KE. KG, KP. KR, KZ. LC, LK, LR, LS. LT, LU, LV, MD, 
MG, MK. MN, MW. MX, NO ? NZ. PL. PT, RO. RU. SD, 
SE. SG, SI, SK, SL, TJ, TM, TR, TT, UA, UG, US, UZ. 
VN. YU, ZA. ZW. 

[Fortset:ung auf der nachsten Seiie] 



(54) Title: METHOD FOR DETERMINING NUCLEIC AND/OR AMINO ACID SEQUENCES 

(54) Bezeichnung: VERFAHREN ZUM ERMITTELN VON NU KLEIN- UND/ODER AMINOSAURESEQUENZEN 



= i blastx humprot 



< 
o 



O 



i 

Found 
homologue ? 
YES | 

Status=2 





> blastn 






proprietary genes 





Found 
homologue ? 

I YES 

bestfit 



•Status=0 



T 



Status=0 



Update_rdb 



(57) Abstract: The invention relates to a method for determining potentially relevant DNA and/or nucleic acid sequences of a species 
of interest (species sequences). The aim of the invention is to create a method for determining DNA and/or nucleic acid sequences 
with which those DNA and/or nucleic acid sequences are specifically selected that have a potentially increased relevance, that is that 
can be examined with respect to certain functions, especially with regard to a potential relevance for a disease, with a considerably 
reduced amount of research required. 

(57) Zusammenfassung: Die vorliegende Erfindung betrifft ein Verfahren zum Ermitteln potentiell bedeutsamer DNA- und/oder 
Nukleinsauresequenzen einer interessierenden Spezies (Artsequenzen). Urn ein Verfahren zum Ermitteln von DNA- und/oder Nukle- 
insauresequenzen zu schaffen. bei welchem gezielt solche DNA- und/oder Nukleinsauresequenzen herausselektiert werden, die eine 
potentiell erhbhte Bedcutsamkeit haben, das heiBt die mit erheblich weniger Forschungsaufwand gezieh im Hinblick auf bestimmte 
Funktionen unlersucht werden konnen, insbesondere im Hinblick auf eine potentielle Kranheitsrelevanz. 
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(54) Title: METHOD FOR DETERMINING NUCLEIC AND/OR AMINO ACID SEQUENCES 

(54) Bezeichnung: VERFAHREN ZUM ERMTTTELN VON NUKLEIN- UND/ODER AMIN OS AURESEQUENZEN 

^ (57) Abstract: The invention relates to a method for deterrnining potentially relevant DNA and/or nucleic acid sequences of a species 
^ of interest (species sequences). The aim of the invention is to create a method for determining DNA and/or nucleic acid sequences 
fS| with which those DNA and/or nucleic acid sequences are specifically selected that have a potentially increased relevance, that is that 
O can be exarnined with respect to certain functions, especially with regard to a potential relevance for a disease, with a considerably 
© reduced amount of research required. 

^ (57) Zusammenfassung: Die vorliegende Erfindung betrifft ein Verfahren zum Ermitteln potentiell bedeutsamer DNA- und/oder 
Nukleinsauresequenzen einer interessierenden Spezies (Artsequenzen). Um ein Verfahren zum Ermitteln von DNA- und/oder Nukle- 
^ insauresequenzen zu schaffen, bei welchem gezielt solche DNA- und/oder Nukleinsauresequenzen herausselektiert werden, die eine 
^ potentiell erhdhte Bedeutsamkeit haben, das heifit die mit erheblich weniger Forschungsaufwand gezielt im Hinblick auf bestimmte 
^ Funktionen untersucht werden kdnnen, insbesondere im Hinblick auf eine potentieile Kranheitsrelevanz. 
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Verfahren zum Ermitteln von Nuklein- und/oder Aminosauresequenzen 

5 

i 

Die vorliegende Erfindung betrifft ein Verfahren zum Erfassen von DNA- und/oder Nukleinsaure- 
\ sequenzen und insbesondere ein Verfahren zur Erfassung solcher DNA- und/oder Nukleinsaure- 

sequenzen einer gegebenen Spezies (im folgenden kurz ats „Artsequenzen" bezeichnet), die 
10 eine potentiell erhohte Bedeutsamkeit haben und die somit besonders lohnenswert erscheinende 
Forschungsobjekte sind. 

Die Biowissenschaften und insbesondere die Gentechnologie haben in den vergangenen Jahren 
eine besonders rasante Entwickiung durchlaufen. Grundiage hierfur waren zum Beispiei neue 
15 Verfahren zur Erzeugung und Vervielfaltigung von gentechnischem Material, wie z. B, die Poiy- 
merase-Kettenreaktion (PCR) und immer bessere Methoden zur Aufspaltung genetischen Mate- 
rials und zur Identifizierung der BruchstCicke im Detail, das heiftt der genauen Abfolge von Nu- 
kteinsauren, die entlang eines Genabschnittes angeordnet sind. 

20 Dies hat dazu gefuhrt, dad die Zahl der in ihrem genauen Aufbau ermittelten Genabschnitte ver- 
schiedener Arten immer schneller angewachsen ist und weiterhin anwachst Ein sehr anspruchs- 
voiles, aber in wenigen Jahren womoglich bereits erreichtes Ziel liegt in der vollstandigen Erfas- 
sung des menschlichen Genoms, das heilit der Erfassung samtlicher Sequenzen, aus denen die 
menschlichen Gene zusamrnengesetzt sind, einschiieUlich der genauen Reihenfolge von Nu- 

25 kleinsauren innerhalb der Sequenzen und der relativen Anordnung der einzelnen Sequenzen 
zueinander. 

Auch wenn die Anordnung und Positionierung bestimmter Sequenzen schon eine nutzliche Zu- 
satzinformation bei der Ermittlung der funktionellen Bedeutung der betreffenden Sequenzen lie- 

30 fern kann, so ist doch die reine Kenntnis einer bestimmten Sequenz (Nukleinsaure- oder DNA- 
Sequenz) nur von sehr geringem Wert, solange man die genaue Funktion und Bedeutung des 
betreffenden Genabschnittes nicht erkannt und verstanden hat. Gerade dies spielt aber in der 
wissenschaftlichen Forschung und insbesondere in der Medizin eine immer grofiere Rolle. So 
sind z. B. bestimmte Krankheiten mit der konkreten Ausgestaltung ganz bestimmter Genab- 

35 schnitte aufs Engste verknupft und die genaue Kenntnis des funktionellen Zusammenhanges 
< zwischen einem bestimmten Genabschnitt und der Auspragung eines bestimmten Krankheitsbit- 

des kann daher von enormer therapeutischer Bedeutung sein, da sich dann viel leichter Pharma- 
zeutika entwickeln lassen, die exakt ein krankhaftes Defizit ausgleichen. Gegebenenfalls kann 
sogar eine vollstandige Heilung dadurch herbeigefuhrt werden, daft durch Gabe eines Therapeu- 

40 tikums, z. B eines Inhibitors eines Genproduktes eines kranheitsrelevanten Gens, der gesunde 
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Gleichgewichtszustand wieder erreicht wird. Dies gilt selbstverstandlich nicht nur fur die mensch- 
liche Spezies, sondem im Prinzip fur jede Art von Lebewesen, das heiftt sowohl fur alle Tier- und 
Pfianzenarten ais auch fur mikrobiologische Arten. 

5 Wie bereits erwahnt, ist das reine Auffinden immer neuer DNA- oder Nukleinsauresequenzen 
ohne Kenntnis von deren funktionaler Bedeutung eine relativ nutzlose Sammlung von Daten, da 
es kaum moglich ist, in gezielter biologischer bzw. medizinischer Forschung die funktionale Be- 
deutung einzelner Sequenzen oder Sequenzabschnitte auch nur annahernd in dem Tempo zu 
ermitteln, in dem neue Sequenzen ermittelt werden. 

10 

Aulierdem ist die Ermittlung der funktionellen Bedeutung von DNA-Sequenzen, auf deren Funkti- 
on es keinerlei Hinweise gibt, neben dem dafur erforderlichen Zeitaufwand auch aufterordentlich 
kosten- und personalintensiv und bindet damit viele Kapazitaten, 

15 Ausgehend von diesem Stand der Technik liegt der voriiegenden Erfindung die Aufgabe zugrun- 
de, ein Verfahren zum Ermitteln von DNA- und/oder Nukleinsauresequenzen zu schaffen, bei 
welchem gezielt solche DNA- und/oder Nukleinsauresequenzen herausselektiert werden, die 
eine potentiell erhohte Bedeutsamkeit haben, das heiSt die mit erheblich weniger Forschungs- 
aufwand gezielt im Hinblick auf bestimmte Funktionen untersucht werden konnen, insbesondere 

20 im Hinblick auf eine potentielle Kranheitsrelevanz, ais dies bei den ubrigen, nicht auf diese Weise 
selektierten DNA-Sequenzen moglich ware. 

Diese Aufgabe wird durch die Merkmale des Anspruchs 1 gelost, wobei die abhangigen Anspru- 
che vorteilhafte Ausgestaltungen der Erfindung darstellen, durch die die Selektion nochmals ver- 
25 feinert wird und durch die zusatzliche Informationen gewonnen werden, welche den notwendigen 
Forschungsaufwand noch weiter reduzieren. 

Das erfindungsgemaBe Verfahren besteht aus mehreren Schritten, wobei die Reihenfolge der 
nachstehend aufgelisteten Schritte jedoch mindestens teilweise auch variabel ist. Zum Beispie! 
30 konnten zunachst die Schritte b und c und anschlieBend erst der Schritt a des Anspruchs 1 aus- 
gefuhrt werden. 

GemaB Schritt a werden im Prinzip beliebige Artsequenzen einer interessierenden Spezies mit 
biologischen bzw. gentechnischen Methoden ermittelt. Die ermittelten Artsequenzen werden in 
35 einer ublichen Nomenklatur ais Buchstabencode, der z. B. aus vier Buchstaben besteht, in einer 
ersten Datenbank gespeichert. 

Weiterhin werden gemaB Schritt b alle bekannten DNA- und/oder Nukleinsauresequenzen einer 
vorgegebenen Gruppe biologischer Arten oder Klassen in einer zweiten Datenbank erfaftt, in der 
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im allgemeinen auch die funktionalen Bedeutungen solcher Sequenzen zusammen mit den Se- 
quenzen gespeichert sind. Derartige, offentlich zugangliche Datenbanken enthalten aufierdem 
mitunter weitere Zusatzinformationen zu den einzelnen Sequenzen. Lediglich zur besseren Un- 
terscheidung werden diese von mehreren Arten stammenden Sequenzen hier kurz als „Biose- 
quenzen" bezeichnet, wahrend Sequenzen der interessierenden Spezies hier durchgehend als 
„Artsequenzen" bezeichnet werden. Die vorgegebene Gruppe von Arten oder Klassen kann, mufi 
jedoch nicht die interessierende Spezies enthalten. Im Gegenteil, gemafi der vorliegenden Erfin- 
dung sind es gerade die uber andere Arten in solchen Datenbanken enthalten Informationen, die 
gemafi der vorliegenden Erfindung mit einem ausgekliigelten Verfahren selektiert werden, die 
dann durch die Verknupfung mit anderen Informationsquellen mit Hilfe des erfindungsgemafien 
Verfahrens indirekt Hinweise auf die Bedeutung bestimmter Sequenzen der interessierenden Art 
liefern. 

Gemafi Schritt c werden die in einer Datenbank gemafi Schritt b erfafiten Biosequenzen mit den 
ebenfalls bereits bekannten und mogiicherweise in derselben Datenbank gespeicherten Artse- 
quenzen (der interessierenden Art) in einem Homologietest verglichen, wobei wegen der relativ 
grofien Zahl der miteinander zu vergleichenden Sequenzen ein moglichst einfacher Homologie- 
test verwendet werden sollte. Liegt dann die Homologie zwischen den bekannten Artsequenzen 
und den bekannten Biosequenzen uber einem gewissen Schwellenwert, so werden all diese zu 
bekannten Artsequenzen homologen Biosequenzen gemafi Schritt d aus dem weiter zu betrach- 
tenden Datenbestand ausgesondert. Damit ist die Menge der verbleibenden, bekannten Biose- 
quenzen gegenuber den insgesamt offentlich bekannten Biosequenzen nicht nur durch eine Be- 
schrankung auf eine Gruppe bestimmter Arten reduziert, sondern daruber hinaus auch noch auf 
diejenigen Sequenzen, zu denen bisher keine homologen Artsequenzen ermittelt wurden. 

Die gemafi Schritt a gespeicherten bzw. neu ermittelten DNA-/Nukleinsauresequenzen werden 
dann in Schritt e mit diesem verbleibenden, reduzierten Bestand an Biosequenzen in einem Ho- 
mologietest verglichen. Zweckmafiigerweise werden zur Bestatigung der Homologie und zum 
besseren Verstandnis der ubereinstimmenden Abschnitte der Sequenzen die Artsequenz und die 
hierzu homologe Biosequenz aneinander angepafit Wenn die Homologie uber einem vorgege- 
benen zweiten Grenzwert liegt, so werden die betreffenden Biosequenzen gemafi Schritt f zu- 
sammen mit mindestens einem die zugehorige Biosequenz eindeutig identifizierenden Verknup- 
fungsgiied abgespeichert bzw. als potentiell bedeutsame Artsequenz ausgegeben. 

Durch die Verknupfung mit einer oder mehreren bestimmten Biosequenzen, zu denen bereits 
Funktionsbeschreibungen und andere Zusatzinformationen bekannt sind, kann man sehr gezielt 
nach analogen Funktionen der neu ermittelten Artsequenzen suchen und hat dabei auch einen 
sehr hohen Grad von Erfolgswahrscheinlichkeit mit verhaltnismafiig niedrigem Aufwand. Diese 
erhohte Erfolgswahrscheinlichkeit bei niedrigem Aufwand macht die betreffenden Artsequenzen 
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zu Artsequenzen potentiell erhdhter Bedeutsamkeit, da andere von ihrer Struktur und Lange her 
gleichwertige Artsequenzen, zu denen aber keine Homologe mit bekannten Funktionen existie- 
ren t einen erheblich groReren Aufwand bei der Ermittlung ihrer funktionellen Bedeutung erfordern 
wurden. 



Ailgemein werden verschiedene Informationspools durch die vorliegende Erfindung auf eine be- 
sondere, strategisch gunstige Weise so miteinander verkniipft, daft ein Maximum an Information 
zu einer Sequenz mit einem in der Praxis noch machbaren Minimum an Aufwand gewonnen wird. 
Dagegen wurde eine nach ubiichen mathematischen Kriterien vorgenommene wechselseitige 
Verknupfung aller zu jeweils einer Sequenz und deren Homologen gespeicherten Daten aus ei- 
ner grGfteren Gruppe von biomedizinischen Datenbanken, wie sie voriiegend verwendet werden, 
alie derzeit verfugbaren Rechenkapazitaten bei weitem ubersteigen. 

Bei dem erfindungsgemaSen Verfahren lassen sich daher nicht nur wesentlich schneller und si- 
cherer Erfolge bei der Entwicklung von Medikamenten und der Therapie von Krankheiten erzie- 
ten, sondern es ist diese Erfolgswahrscheinlichkeit bei gleichzeitig reduziertem Forschungsauf- 
wand betrachtlich erh&ht 

Um diesen Aufwand noch weiter zu reduzieren, ist in einer bevorzugten Ausfuhrungsform der 
Erfindung vorgesehen, daS gemaft einem weiteren Schritt g in den offentlich zuganglichen Da- 
tenbanken Hinweise (Links) erfaBt werden, die dort zu Biosequenzen in der zweiten, offentlichen 
Datenbank gespeichert sind, und zwar zu den Biosequenzen, die zuvor ais Homologe zu neuen 
Artsequenzen ermittelt wurden, wobei vorzugsweise solche Hinweise ausgewertet und verwendet 
werden, die auf eine taxonomisch organisierte Datenbank hinweisen. Eine solche taxonomisch 
organisierte Datenbank enthalt zu den jeweiligen Biosequenzen nach einheitlichen wissenschaft- 
lichen Kriterien ausgewahlte Stichworte, die dann gemSfi Schritt h mit einer vorgegebenen Liste 
von Stichworten verglichen werden, wobei diese Liste wiederum so ausgewahlt ist, daft sie die 
Forschungsgebiete eines Benutzers abdeckt Die betreffende Biosequenz und die zugeh5rige 
Artsequenz werden also nur dann in dem als lohnende Zielobjekte zu definierenden Datenbe- 
stand erhalten, wenn Obereinstimmungen zwischen einer vorgegebenen Stichwortliste und den 
nach taxonomischen Kriterien vergebenen Stichwortern in der entsprechenden Datenbank (dritte 
Datenbank) bestehen. Die betreffenden Stichworter, die in gewisser Weise funktionale Bedeu- 
tungen reprasentieren, lassen dann wiederum eine gezieltere Forschung nach den speziellen 
Eigenschaften einer Artsequenz zu. 



Die Datenbank, in welcher neu ermittelte Artsequenzen fur eine weitere Untersuchung gespei- 
chert werden, kann eine offentliche Datenbank sein, durfte im Regelfall aber eine private Daten- 
bank sein, zu der jeweils nur der Benutzer Oder einige wenige Benutzer Zugang haben, jedoch 
nicht die Offentlichkeit, 
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Dagegen hat die zweite Datenbank, in der auch Zusatzinformationen zu den betreffenden Biose- 
quenzen und Hinweise auf andere Datenbanken und darin gespeicherte Informationen enthalten 
sind, im allgemeinen eine offentliche Zugangsmoglichkeit 

5 

Eine fur die Zwecke der vorliegenden Erfindung besonders geeignete dritte Datenbank, die nach 
taxonomischen Kriterien ausgewahlte Stichworte (MeSH Begriffe) enthalt, ist die sogenannte 
„MEDLINE"-Datenbank. Diese Datenbank enthalt zum einen eine Identifikationsnummer fur jede 
biomedizinische Literaturstelie und zusatzliche Informationen zusammen mit einer Reihe weiterer 
10 Daten, und unter anderem auch Stichworte, die als „medical subject headings" bezeichnet wer- 
den. Daruber hinaus gibt es Hinweise auf Fundstellen, Autoren, Veroffentlichungen. Und soge- 
nannte RN Nummern. 

Daneben enthalt die MEDLINE Datenbank einen sogenannten Sequenz Identifier, der vorzugs- 
15 weise als eines der notwendigen Verknupfungsglieder benutzt wird. 

Auf diese Weise ist es moglich, fur einen Benutzer umfassende Informationen zu erzeugen und 
zusammenzustellen, der ursprunglich lediglich DNA-/Nukleinsauresequenzen voriiegen hatte, zu 
denen keinerlei Informationen bekannt waren, wobei durch das erfindungsgemaSe Verfahren 

20 automatisch auf dem Weg uber Homologietests und das gezielte Filtem und Aussondern von 
Informationsquelien umfassende Informationen zu einer Artsequenz erzeugt werden, die Bedeu- 
tung und Funktion der Sequenz charakterisieren und eine gezielte Forschung ermoglichen. Alle 
Artsequenzen, fur die auf diese Weise Funktionen und Bedeutungen ermittelt werden konnen, 
werden urn diese Zusatzinformationen erganzt. Sie konnen jedoch jederzeit wieder aufgegriffen 

25 werden, wenn der Datenbestand in der zweiten (offentlich zuganglichen) Datenbank entspre- 
chend erweitert worden ist T so da(i sich auf diese Weise auch zunachst ausgesonderte Artse- 
quenzen bei einem spateren Durchlauf als lohnenswerte Zielobjekte herausstellen konnen. 

Die Homologietests, die zwischen Artsequenzen und Biosequenzen durchgefuhrt werden, wer- 
30 den vorzugsweise in einem Pipelineverfahren durchgefuhrt, so da(i nicht immer komplette Daten- 
bestande erfaRt und verwaltet werden mussen. 

Weiterhin ist es zweckmaftig, wenn auch uber die bereits erwahnten Datenbanken hinaus weitere 
Datenbanken nach Verknupfungen insbesondere mit der dritten Datenbank (MEDLINE) durch- 
35 sucht werden, urn im Falle einer entsprechenden Verknupfung auch die Zusatzinformationen aus 
diesen zusatzlichen Datenbanken zu vetwerten. Hierzu zahlen insbesondere auch die als n OMIM M 
und „KEGG" bezeichneten Datenbanken. 
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Auch ohne weitere Ausfuhrungen wird davon ausgegangen, daB ein Fachmann die obige Be- 
schreibung im weitesten Umfang nutzen kann. Die bevorzugten Ausfuhrungsformen und Bei- 
spiele si nd deswegen lediglich als beschreibende, keineswegs als in irgendeiner Weise limitie- 
rende Offenbarung aufzufassen. 

5 t 

Die vollstandige Offenbaaing aller vor- und nachstehend aufgefuhrten Anmeldungen, Patente 

und Veroffentlichungen, sowie der korrespondierenden Anmeldung 199 41 606.0, eingereicht am K { 

1. September 1999 sind durch Bezugnahme in diese Anmeldung eingefuhrt. 

10 Ein Ausfuhrungsbeispiel der Erfindung wird im folgenden anhand von Figuren eriautert, woraus 
sich weitere Vorteile, Merkmale und Anwendungsmoglichkeiten der vorliegenden Erfindung erge- 
ben. Es zeigen: 

Fig. 1 ein Schema zur Reduktion der ermittelten Artsequenzen, wie es den Schritten a bis f in 
15 Anspruch 1 entspricht, 

Fig. 2 ein Schema von Datenbanken und Datenbankverknupfungen, wie sie fur das weitere 
Auswerten von Informationen gemaB der vorliegenden Erfindung verwendet werden und 

20 Fig. 3 die Wiedergabe einer Bildschirmdarsteliung mit Bedienfeldem und Informationsfeldern zur 
einer (hypothetischen) Nukleinsauresequenz. 



Generell werden zunachst alle z. B. im Laufe einer Woche neu ermittelten DNA-Sequenzen bzw. 
Nukleinsauresequenzen in einer ublichen Nomenkiatur (in den standardmaftigen Buchstaben- 

25 codes) in einer Datenbank gespeichert, wobei auBerdem noch eine Identifikationsnummer oder 
irgendeine andere Codierung zur Identifikation der betreffenden Sequenz vergeben und gleich- 
zeitig abgespeichert wird, Weitere, zusatzlich mit abzuspeichernde Informationen sind z. B. die 
Sequenzlange, die Art und andere Zusatzinformationen, die unmittelbar zusammen mit der Er- 
mittiung einer sofchen Sequenz zur Verfugung stehen. Die folgenden Verfahrensschritte laufen 

30 dann automatisch ab. Es wird auf eine offentlich zugangliche Sequenzdatenbank zugegriffen f die 
DNA- und/oder Nukleinsauresequenzen der verschiedenen Arten enthalt. Dabei wird durch die 
ursprungliche Eingabe der interessierenden Spezies (z. B. Homo sapiens) bereits eine Ein^ 
schrankung auf eine bestimmte Gruppe von Arten vorgenommen, von denen man sinnvollerwei- 
se eine Korrelation und funktionale Ahnlichkeit zu Genabschnitten der interessierenden Art ver- 

35 muten kann. * 



Die offentliche Sequenzdatenbank enthalt bereits Daten uber die interessierende Art. Daher wird 
zunachst ein Homologietest zwischen den in der offentlichen Datenbank dokumentierten Se- 
quenzen der interessierenden Art mit den Biosequenzen der entsprechend ausgewahiten Gruppe 



WO 01/20024 ™ ? ^ PCT/EP00/07953 

von Arten, die in derselben Datenbank gespeichert sind. Dabei werden alle Biosequenzen, die 
homolog zu den bereits in der offentfichen Datenbank gespeicherten Artsequenzen sind ausge- 
sondert, da sie offenbar schon Gegenstand entsprechender Forschungen waren bzw. sind. 

5 ZweckmafJigerweise werden die Ergebnisse dieses Verfahrensschrittes protokolliert, so dafi bei 
einer Wiederholung desselben Vorganges z. B. eine Woche spater alle bereits einmal ausgeson- 
^ derten Biosequenzen von vornherein aufter Betracht bleiben, was den Verfahrensabfauf be- 

trachtlich beschteunigt. Der Homologietest kann sich dann auf die neu hinzugekommenen Biose- 
quenzen beschranken bzw. umgekehrt die zuvor nicht ausgesonderten Biosequenzen mussen 
10 noch in einem Homologietest mit neu hinzugekommenen Artsequenzen verglichen werden. 

Damit wird jedoch der Ausgangsdatenbestand betrachtlich verringert 

Die noch verbleibenden Biosequenzen werden dann mit den neu ermitteiten Artsequenzen in 
15 einem Homologietest verglichen. Dabei werden im Regelfall fur einige der neu ermitteiten Artse- 
quenzen homologe Biosequenzen gefunden. Sodann wird eine Liste bzw. Tabelle der Artse- 
quenzen und der dazu neu gefundenen, homotogen Biosequenzen angefertigt und in diese Ta- 
belle bzw. Liste werden auch zusatzliche Informationen aus der offentlichen Datenbank uber- 
nommen, wie z. B. eine medline-ldentitatsnummer, die moglicherweise zu einer bekannten Bio- 
20 sequenz gespeichert ist. 



Ein weiterer Schritt (h) des Verfahrens besteht im Klassifizieren der in Schritt 0 ausgegebenen 
bzw. gespeicherten Artsequenzen, d. h. Einordnen (Sortieren) in bestirnmte Klassen von Se- 
quenzen durch linguistische Analyse von Textdefinitionen der zu den homologen Biosequenzen 
25 gespeicherten Zusatzinformationen. Dies ermoglicht eine Aufteilung in Teildatensatze, die fur 
deren Erganzung wiederum nur ein Teil der sonstigen Datenbasen in Frage kommt 



Weiterhin erfolgt gemalJ Schritt i ein Erganzen der den potentiell bedeutsamen Artsequenzen 
zuzuordnenden Eigenschaftsinformationen der jeweils homologen Biosequenzen durch Erfassen 
30 von Hinweisen (Links) zu den gemalJ Schritt f) erfaliten Biosequenzen in der zweiten Datenbank 
auf mindestens eine dritte Datenbank und Erfassen der zu den erwahnten Biosequenzen in der 
dritten Datenbank gespeicherten Informationen 

Die dritte Datenbank sollte eine mindestens in Teilbereichen taxonomisch organisierte Klassifika- 
35 tion bereitstellen, vorzugsweise handelt es sich dabei urn die sogenannte MEDLINE Datenbank. 

ErfindungsgemaB werden die nach taxonomischen Kriterien den jeweiligen Biosequenzen zuge- 
ordneten Stichworte mit einer vorgegebenen Liste bzw. Datei von Stichworten verglichen und 
ubereinstimrnende Stichworte sowie die betreffenden Biosequenzen und die homologen Artse- 
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quenzen bzw. jeweils eine Kennung derselben, fur die ubereinstimmende Stichworte mit der vor- 
gegebenen Liste von Stichworten gefunden wurden, werden ausgegeben. 

Neben der MEDLINE Datenbank Oder auch ersatzweise hierfur werden auch Informationen aus 
5 weiteren Datenbanken verwendet, die z. B. aus der Gruppe ausgewahlt werden, die aus den 
Unigene, Genemap und GDB (neu) sowie OMIM-, KEGG- und UMLS-Datenbanken besteht. 

In erster Linie ist die interessierende Spezies die des Homo sapiens, wobei aber das erfindungs- 
gemafle Verfahren fur eine andere Spezies mit im wesentlichen ahnlicher Zielsetzung ebenso 
1 o verwendet werden kann. 

Mit Bezug auf die Figuren werden nun der Ablauf und das Ergebnis eines hypothetischen Aus- 
fuhrungsbeispiel etwas genauer erfautert. Wie bereits erwShnt, werden gemafi Schritt c in Pa- 
tentanspruch 1 bereits bekannte Artsequenzen der interessierenden Spezies mit den Biosequen- 

15 zen in einem Homologietest verglichen, die zu einer vorgegebenen Gruppe von Biosequenzen 
gehoren, welche in der zweiten Datenbank gespeichert sind. Dieser Schritt ist in Fig. 1 mit "blastx 
humprot" bezeichnet. Sofem homologe Sequenzen gefunden wurden, wird den zu den bereits 
bekannten Artsequenzen homologen Biosequenzen ein bestimmter Status (hier Status = 2) zu- 
geordnet und diese Biosequenzen werden entsprechend gekennzeichnet und aus dem interes- 

20 sierenden Pool der zweiten Datenbank ausgesondert. 

Anschliefiend erfolgt mit den Artsequenzen, die gemafi Schritt a ermitteit wurden, ein weiterer 
Homologietest mit den aus der zweiten Datenbank verbleibenden Biosequenzen, die bis dahin 
noch nicht als Homologe zu bekannten Artsequenzen ermitteit wurden. Dieser Schritt ist in Fig. 1 

25 mit "Blastn proprietary genes" bezeichnet. Sofem homologe Biosequenzen gefunden wurden, 
erfolgt die bestmogliche Anpassung und Ausrichtung (dieser Schritt ist in Fig. 1 mit "bestfit" be- 
zeichnet) und die die Anpassung, Lange und Ausrichtung kennzeichnenden Daten werden zu- 
sammen mit der betreffenden Sequenz gespeichert. Der den entsprechenden Biosequenzen 
zugeordnete Status 0 bedeutet, daR diese Biosequenzen weiterhin in dem interessierenden Pool 

30 an Daten verbleiben. 

Ebenso verbleiben auch diejenigen Biosequenzen in dem interessierenden und reduzierten Da- 
tenpool, zu welchen weder unter den ermittelten Artsequenzen noch unter den bereits bekannten 
Artsequenzen Homologe zu finden waren. 

35 

Auf diese Weise werden Datensatze erzeugt, welchen neu ermittelten Artsequenzen entspre- 
chende homologe Biosequenzen zugeordnet sind. Der Benutzer des erfindungsgemalien Sy- 
stems bedient dieses zweckmaBigerweise von einem Bildschirmarbeitsplatz mit entsprechenden 
Einrichtungen. In Fig. 3 ist schematisch eine Bildschirmanzeige wiedergegeben, die ein hypothe- 
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tisches Ergebnis einer Ermittlung potentiell bedeutsamer Artsequenzen gemafi der Erfindung 
zeigt. Dabei ist allerdings darauf hinzuweisen, da(i das dargestellte Ergebnis kein Realerzeugnis, 
sondern lediglich ein hypothetisches, kunstlich synthetisiertes Ergebnis ist, an welchem jedoch 
prinzipiell alle wesentlichen Schritte und Ergebnisse eines typischen Ausfuhrungsbeispiels ab- 
gelesen werden konnen. 

Der Bildschirm zeigt am linken Rand eine Reihe von Befehls- und Parameterfeldern, die der Be- 
nutzer bedienen kann. Beispielsweise wahlt er in dem Feld 1.2 einen Grenzwertparameter aus, 
der die minimale Lange der Homologie zwischen Artsequenz und Biosequenz angibt, die gemafi 
Homologietest und bestmogiicher Anpassung mit den Nukleinsauren der homologen Sequenz 
ubereinstimmen. In Feld 1.3 wird der Grenzwert einer prozentualen Ubereinstimmung wiederge- 
geben. In Feld 1.4 kann z.B. ein Stichwort eingegeben werden, welches in Verbindung mit den 
entsprechenden homologen Sequenzen gesucht werden soli. 

Die ubrigen Bedienfelder sind selbsterklarend. 

Nachdem der/die Benutzer/in entsprechende Parameter ausgewahlt hat und das zugrunde lie- 
gende Programm startet, erhalt er/sie nach kurzer Zeit eine Liste von Artsequenzen, die eine 
Oder mehrere Biosequenzen Homologe haben, welche den Kriterien der Benutzereingabe ent- 
sprechen. Zum Beispiel zeigt Abb. 3, daft 124 Artsequenzen eine oder mehrere Biosequenzen 
haben, welche homolog mit einer prozentualen Identitat groBer als 95% sind und uber eine Ho- 
moiogielange grolier als 500 Basenpaaren verfugen. Daruber hinaus haben die Eintrage MeSH 
Begriffe, die hauptsachlich mit CNS (Zentrales Nerven System) assoziiert sind. Von den 124 Ein- 
tragen zeigt Abb. 3 die funfte Artsequenz, welche mit der Ziffernfolge 44567 bezeichnet ist. Die 
Biosequenzen, die homolog sind mit der Artsequenz, sind in der rechten Bildhatfte unter "seeds" 
angegeben. Dabei sind, um diese Zuordnung einzelner Daten aus umfangreichen Dateien zu 
einer bestimmten vorgegebenen Artsequenz einschlielilich der vielen Zusatzinformationen er- 
zeugen zu konnen, mehrere Schritte notwendig, die allerdings in einem entsprechenden Pro- 
gramm automatisch abiaufen, wobei die Ablaufe schematisch an Fig. 2 erlautert werden sollen. 
Aus dem Homologietest, der in Fig. 1 mit "blast proprietary genes" bezeichnet ist und aus den 
sich daraus ergebenden Homologen in der zweiten Datenbank, iassen sich aus der zweiten Da- 
tenbank sogenannte Genbank Identifier (Genbank ID) ermitteln, die wiederum auch in anderen 
Datenbanken abgelegt sind, und so eine Relation zwischen verschiedenen Nuklein- und/oder 
Aminosauresequenzen und anderen, in den Datenbanken gespeicherten Informationen herstel- 
ien. 

Eine Schlusselfunktion kommt dabei der Medline-Datenbank und dem darin festgelegten MED- 
LINE-ldentifier (Block "Medline ID") zu, der in vielen anderen Datenbanken registriert ist. Die un- 
ter "seeds" angegebenen Sequenzen sind durch einen Genbank Identifier charakterisiert. Diese 
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durch den Genbank Identifier bezeichneten Eintrage konnen unter anderem auch Medline Identi- 
fier enthatten. Aus der MEDLINE Datenbank lassen sich die Titel der entsprechenden Eintrage 
mit Hilfe dieser Medline identifier ermitteln. Aufterdem sind in dieser Datenbank oft auch Hinwei- 
se auf bestirnmte Enzyme abgelegt, die mit dem betreffenden Genabschnitt in Verbindung ge- 
5 bracht werden und hieraus ergeben sich wiederum die biochemischen Reaktionspfade, die von t 
diesen Enzymen beeinflufit werden. Uber den MEDLINE-ldentifier lassen sich auRerdem weitere 
Informationen aus anderen Datenbanken gewinnen, z.B. uber pathologische Informationen, die ^ 
Lokalisierung von Genen auf bestimmten Chromosomenabschnitten etc. 

10 Auf dem Bildschirm wird dann nach dem Durchlauf eines entsprechenden Programms eine ganze 
Reihe von Informationen wiedergegeben, die neben der wahrscheinlichen Lokalisierung der neu 
ermittelten Artsequenz eine ganze Reihe von Hinweisen auf dessen Funktion, Organverteilung 
und Krankheitsrelevanz gibt. Im vorliegenden Fall, der, wie bereits erwahnt, nur hypothetische 
Informationen zu einer Artsequenz wiedergibt, erkennt man beispielsweise neben der Sequenz 

15 44567 die biochemische Bezeichnung, das Erstellungsdatum der Information, ber 17q23 die Po- 
sition des Genabschnittes auf einem Chromosom, Darunter sind Gene angegeben, die auf dem- 
selben Chromosomenarm lokalisiert sind. Aus der UNIGENE-Datenbank stammen Informationen 
uber Cluster aus Genbruchstucken (EST-Cluster), die uber eine bestirnmte Nummer (Hs. 198237) 
identifiziert werden. Die Anzahl der ESTs in diesem Cluster im Verhaltnis zur Gesamtzahl der 

20 Komponenten der vorliegenden Sequenz ist mit 54/82 angegeben. Proangiotensin-Angiotensin 
gibt die wahrscheinlichsten Stoffwechselpfade oder chemischen Reaktionen an, zu welchen die 
bekannten Biosequenzen gehoren. Weiterhin ist mit BRAIN dasjenige Organ angegeben, in wel- 
chem die betreffenden Sequenzen am haufigsten gefunden werden. Die Organverteilung der 
EST-Komponenten wird durch unterschiedliche Balkenlangen veranschaulicht. Der wahrschein- 

25 lichste Bereich einer Krankheitsindikation, die in Verbindung mit dem Datenabgleich ermittelt 
wurde, ist mit CNS angegeben. In der linken Halfte erkennt man noch eine horizontale Balkenrei- 
he, wobei die Lange dieser Balken jeweils Ubereinstimmungen zwischen der Artsequenz und den 
in der entsprechenden Zeile angegebenen zugehorigen Biosequenzen oder Sequenzabschnitten 
angegeben wird. Daneben sind die Biosequenzen unter "seeds" im einzelnen aufgelistet, ein- 

30 schlieBlich ihrer prozentualen Obereinstimmung und der Lange der ubereinstimmenden Se- 
quenzabschnitte. Weiterhin sind angegeben die Titel entsprechender Zeitschriften, die Enzyme, 
und verschiedene Stichworte. 

In dem vorliegenden Beispiel wurden durch die erfindungsgemalSe Verknupfung uber verschie- 
35 dene Identifier, Stichwortsuche und taxonomische Auswertung von Datenbanken gewonnene 
Information aus den meisten der in Fig. 3 angegebenen Datenbanken ermittelt, mit Ausnahme 
der mit UMLS, SNOMED und ICD9-CM bezeichneten Blocke. Zur Speicherung der aus dem 
Verfahren gewonnenen Informationen wird das Knowledge Interchange Format (KIF) verwendet. 
Dieses Format kann von verschiedenen Knowledge Engineering Werkzeugen wie z.B. Ontoiin- 



WO 01/20024 




PCT/EP00/07953 



gua verwendet werden, um unter anderem HTML oder XML Dateien zu generieren und weiterfiih 
rende Methoden der kunstlichen Intelligenz (Kl) anzuwenden. 



p 
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Pat ntanspruche 



5 1 . Verfahren zum Ermitteln potentiell bedeutsamer DNA- und/oder Nukleinsauresequenzen 
einer interessierenden Spezies (Artsequenzen) mit den fotgenden Schritten: 

a) Ermitteln beliebiger Artsequenzen der Interessierenden Spezies mit biologischen bzw. 
gentechnischen Methoden und Speichern der Artsequenzen in einer ersten Datenbank, 

10 

b) Erfassen bekannter DNA-/Nukleinsauresequenzen einer vorgegebenen Gruppe anderer 
Arten (Biosequenzen) einschliefilich der funktionalen Bedeutung dieser Sequenzen, in ei- 
ner zweiten Datenbank, in welcher die Biosequenzen und Zusatzinformationen ein- 
schlieftlich der funktionalen Bedeutung einzelner Biosequenzen gespeichert sind, 

15 

c) Vergleichen der bereits bekannten Artsequenzen der interessierenden Spezies mit den 
Biosequenzen der in der zweiten Datenbank gespeicherten, vorgegebenen Gruppe von 
Biosequenzen in einem Homologietest, 

20 d) Aussondern derjenigen Biosequenzen der vorgegebenen Gruppe, die zu den bekannten 
Artsequenzen uber einem vorgegebenen Schwellenwert homoiog sind, 

e) Vergleichen der aus der zweiten Datenbank verbleibenden, nicht ausgesonderten Biose- 
quenzen aus der erwahnten Gruppe mit den nach Schritt a ermittelten Artsequenzen in 

25 einem zweiten Homologietest, 

f) Speichern und/oder Ausgeben derjenigen Artsequenzen als Artsequenzen potentiell er- 
hohter Bedeutung, deren Homoiogie mit Biosequenzen aus den aus der erwahnten Grup- 
pe verbliebenen Biosequenzen einen vorgegebenen zweiten Schwellenwert uberschrei- 

30 tet, zusammen mit Informationen uber die hierzu jeweils homologen Biosequenzen. 



g) Wobei Schritt e) wahlweise auch vor Schritt c) und ohne vorheriges Aussondern gemafi 
Schritt d) durchfuhrbar ist. 

35 2. Verfahren nach Anspruch 1 , gekennzeichnet durch die folgenden weiteren Schritte: 

h) Anpassen der in Schritt f) ausgegebenen bzw. gespeicherten Artsequenzen in einer nach 
vorgebbaren Kriterien optimierten Anpassung an die jeweils homologen Biosequenzen 
und Ausgabe und/oder Speicherung charakteristischer Parameter der optimierten Anpas- 
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sung, wie zum Beispiel der prozentualen Ubereinstimmung, der Lange Gbereinstimmen- 
der Sequenzabschnitte und der optimierten reiativen Ausrichtung (Alignment). 

3. Verfahren nach Anspruch 1 , gekennzeichnet durch die folgenden weiteren Schritte: 

i) Klassifizieren der in Schritt f) ausgegebenen bzw. gespeicherten Artsequenzen, d. h. Ein- 
ordnen (Sortieren) in bestirnmte Klassen von Sequenzen durch linguistische Analyse von 
Textdefinitionen der zu den homologen Biosequenzen gespeicherten Zusatzinformatio- 
nen. 

4. Verfahren nach einem der Anspruche 1 bis 3, gekennzeichnet durch den folgenden 
Schritt: 

k) Erganzen der den potentiell bedeutsamen Artsequenzen zuzuordnenden Eigenschaftsin- 
formationen der jeweils homologen Biosequenzen durch Erfassen von Hinweisen (Links) 
zu den gemaft Schritt f) erfaftten Biosequenzen in der zweiten Datenbank auf mindestens 
eine dritte Datenbank und Erfassen der zu den erwahnten Biosequenzen in der dritten 
Datenbank gespeicherten Informationen. 

5. Verfahren nach einem der Anspruche 1 bis 4, dadurch gekennzeichnet, daft die dritte 
Datenbank eine mindestens in Teilbereichen taxonomisch organisierte Kiassifikation be- 
reithait. 

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daft die dritte Datenbank die 
MEDLINE Datenbank ist. 

7. Verfahren nach Anspruch 5, gekennzeichnet durch Vergleichen der nach taxonomischen 
Kriterien den jeweiligen Biosequenzen zugeordneten Stichworte mit einer vorgegebenen 
Liste bzw. Datei von Stichworten und Ausgabe ubereinstimmender Stichworte sowie der 
betreffenden Biosequenzen und der homologen Artsequenzen bzw. jeweils einer Ken- 
nung derselben, fur die ubereinstimmende Stichworte mit der vorgegebenen Liste von 
Stichworten gefunden wurden. 

8. Verfahren nach Anspruch 2 und einem der auf Anspruch 2 ruckbezogenen Anspruche, 
dadurch gekennzeichnet, daft der Vergleich einer vorgegebenen (klassifizierten) Liste von 
Stichworten mindestens mit den Medical Subject Headings der Medline-Datenbank er- 
foigt. 
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9. Verfahren nach einem der Anspruche 1 bis 4, dadurch gekennzeichnet, daft die dritte 
Datenbank die UNIGENE Datenbank ist. 

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daft auf der Basis der EST- 
Clusterpositionen aus UNIGENE Informationen uber entsprechende Oder benachbarte 
Sequenzabschnitte aus GENEMAP und/oder GDB erfaftt werden. 

11. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dafi weitere Datenbanken 
nach Verknupfungsgliedern zu den in der dritte n Datenbank ermittelten Fundstelten 
durchsucht werden und Hinzufugen der entsprechenden weiteren Informationen bzw. von 
Hinweisen auf die weiteren Informationen zu den entsprechenden Artsequenzen erhohter 
Bedeutung. 

12. Verfahren nach einem der Anspruche 1 bis 11, dadurch gekennzeichnet, daft mindestens 
die zweite Datenbank eine offentlich zugangliche Datenbank .ist. 

13. Verfahren nach einem der Anspruch 5 bis 12, dadurch gekennzeichnet, daft die weiteren 
Datenbanken aus der Gruppe ausgewShit werden, die aus den Unigene, genemap und 
GDB (neu) sowie OMIM-, KEGG- und UMLS-Datenbanken besteht 

14. Verfahren nach einem der Anspruche 1 bis 13, dadurch gekennzeichnet, daft das Hinzu- 
fugen weiterer fnformationen zu den gemaft Schritt f ermittelten Artsequenzen in einem 
Pipelineverfahren erfolgt, wobei die hinzugefiigten Informationen in Form von Verknup- 
fungsgliedern zu den zugeordneten Positionen in weiteren Datenbanken bestehea 

15. Verfahren nach einem der Anspruche 1 bis 14, dadurch gekennzeichnet, daft die interes- 
sierende Spezies die menschliche Spezies ist und daft die zugeordnete Gruppe von Bio- 
sequenzen die Biosequenzen von wirbellosen Tieren, Saugetieren, Primaten, Nagetieren 
und Wirbeltieren, sowie die noch nicht klassifizierten Neueintrage der zweiten Datenbank 
umfaftt 
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